FOCUS: Los DLLMs saben cómo domar su límite de cómputo
Descubre cómo FOCUS optimiza la inferencia de DLLMs, enfocando el cómputo en tokens decodables para lograr hasta 3.5x más rendimiento sin pérdida de calidad.
Descubre cómo FOCUS optimiza la inferencia de DLLMs, enfocando el cómputo en tokens decodables para lograr hasta 3.5x más rendimiento sin pérdida de calidad.